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fü 要 双 目 标 CD-CAT 的 测验 结果 既 可 用 于 形成 性 评估 也 可 用 于 终结 性 评估 。 基 尼 指 数 可 度量 随机 变量 的 不 确 
定性 程度 ， 值 越 小 则 随机 变量 的 不 确定 程度 越 低 。 本 文 用 基尼 指数 度量 被 试 知识 状态 类 别 以 及 能 力 佑 计 置 信 区 间 
后 验 概率 的 变化 , 提出 基于 基尼 指数 的 选 题 策略 。Monte Carlo 实验 表明 与 已 有 的 选 题 策略 相 比 , 新 策略 的 知识 状 


态 分 类 精度 和 能 力 估计 精度 都 较 高 ,同时 能 有 效 兼 顾 题 库 利用 均匀 性 ,并 能 快速 实时 响应 且 受 认 知 诊断 模型 和 


被 试 知识 状态 分 布 的 影响 较 小 ,可 用 于 实际 测验 中 含 多 种 认 知 诊断 模型 的 混合 题库 
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1 引言 


终结 性 评价 用 一 个 连续 标量 0 ( 常 称 为 潜在 特 
质 或 能 力 ) 来 刻画 学 生 在 某 个 学 习 阶 段 的 学 习 效 果 ， 
基于 项 目 反 应 理论 (item response theory, IRT) 的 计 
算 机 化 自 适 应 测验 (computerized adaptive testing, 
CAT) 以 “量体裁衣 ”的 方式 能 更 高 效 地 实施 终结 性 
评估 。 形 成 性 评价 用 一 个 离散 向 量 a ( 常 称 为 潜在 
认 知 模式 或 知识 状态 ) 来 帮助 教师 了 解 每 个 学 生 的 
潜在 认 知 状态 ,为 教师 提供 教学 反馈 ,以 便 更 好 地 
“因材施教 ”"， 这 有 利于 学 生 学 业 和 教师 职业 发 展 ， 
基于 认 知 诊断 理论 (cognitive diagnostic theory, CDT) 
的 CAT 以 “个 性 化 ”测验 方式 快速 诊断 被 试 认 知 的 
长 处 和 短 板 。 教 学 需要 终结 性 评价 与 形成 性 评价 相 
互 结合 ， 既 关注 结果 又 关注 过 程 ， 使 学 习 过 程 和 对 
学 习 结 果 的 评价 达到 和 谐 统 一 。IRT-CAT 关注 终结 
性 评价 , CD-CAT (cognitive diagnostic computerized 
adaptive testing, CD-CAT) 关 注 形成 性 评价 ， 两 者 结 
合 的 双 目 标 CD-CAT (dual objective CD-CAT, 
Dual-CAT) 可 以 将 它们 的 优势 互补 ， 从 而 更 好 地 完 
成 测验 目标 。 

Dual-CAT 的 两 个 习 
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库 的 心理 计量 学 指标 , 正如 IRT-CAT 依赖 于 项 目 反 
应 模型 (item response method, IRM), CD-CAT 依赖 
于 认 知 诊断 模型 (cognitive diagnostic model, CDM), 
Dual-CAT 也 依赖 于 测验 模型 ， 测验 模型 与 题库 的 
心理 计量 学 指标 息息相关 。 现 有 文献 只 有 统一 模 
型 (unified model， 也 称 为 fusion model) (Hartz, 
2002; Rupp et al., 2010) 和 高 阶 模型 (de la Torre & 
Douglas, 2004) 将 被 试 的 知识 状态 a 与 能 力 0 建构 在 
一 个 模型 中 , 但 统一 模型 所 含 参数 较 多 ,在 统计 上 
难以 估计 (Hartz, 2002)， 因 此 实际 应 用 较 少 ,而 高 阶 
模型 采用 层级 结构 ,将 潜在 特质 视 为 比 潜 在 属性 更 
高 层 的 一 般 能 力 , 能 力 9 与 项 目的 正确 作答 概率 之 
间 的 关系 是 通过 被 试 知识 状态 a 间接 相关 ， 只 有 当 
属性 个 数 较 多 时 (例如 大 于 10), 能 力 0 的 估计 才 会 
比较 准确 (de la Torre & Douglas, 2004; Hsu & Wang, 
2015; Huang, 2020), AIJE Dual-CAT 的 选 题 策 略 研 
究 大 多 并 不 基于 上 述 两 种 模型 而 采用 分 离 建 模 的 
方法 , 使 用 统一 模型 还 是 使 用 分 离 建 模 这 两 种 方 
式 决定 了 选 题 策略 的 构造 方法 也 不 同 ,对 于 分 离 建 
模 方式 需要 IRM 和 CDM 的 模型 参数 ， 如 何 为 这 两 
套 模型 参数 建立 联系 是 实施 Dual-CAT 的 基础 。 

de la Torre 和 Douglas (2004) 的 研究 表明 对 于 
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同一 批 数 据 ， 高 阶 模型 估计 的 0 与 IRT 中 2PLM 
(two-parameter logistic model) 模 型 估计 的 9 有 和 较 高 
的 相关 性 ; Wang 等 人 (2014) 的 研究 也 表明 ， 单 维 项 
目 反应 模型 IRM) 和 DINA 模型 (Junker & Sijtsma, 
2001) 在 属性 间 高 度 相 关 或 线性 层级 相关 时 ， 能 够 
很 好 地 拟 合 相同 的 数据 ,他 们 的 研究 为 分 离 建 模 方 
式 提 供 了 支持 ， 采 用 两 步 估计 方法 通过 考虑 各 自 的 
心理 模型 可 获得 稳定 的 a 和 0 估计 (Kang et al., 
2017)。 

二 是 选 题 策略 。 选 题 策略 是 实施 Dual-CAT 的 
关键 技术 , 优良 的 选 题 策略 应 该 既 能 达到 较 高 的 分 
类 精度 和 估计 精度 以 满足 测验 目的 ， 又 能 保证 较为 
均匀 的 题库 利用 率 以 提高 题库 安全 ， 还 需 具 有 较 快 
的 运算 速度 以 满足 实时 响应 的 需求 , 研究 者 们 围绕 
这 个 目标 提出 了 多 种 选 题 策略 。 

IRT-CAT 和 CD-CAT 的 选 题 策略 分 别 注重 潜 
在 特质 的 评估 和 潜在 认 知 结构 的 评 佑 ， 如 何 将 这 两 
者 有 效 地 结合 起 来 ? 学 者 们 提出 了 若干 种 适合 
Dual-CAT 的 选 题 策略 ,文献 中 已 有 的 Dual-CAT 选 
题 策略 主要 有 两 类 : 第 一 类 是 影子 测验 选 题 法 ; 第 
二 类 是 组 合 策略 选 题 法 。 

McGlohen 和 Chang (2008) 在 分 离 建 模 方式 下 
讨论 了 影子 测验 选 题 法 与 IRTCAT 和 CD-CAT 的 单 
一 目标 选 题 法 的 性 能 : (利用 IRT-CAT 中 最 大 信 
息 量 策略 (maximum fisher information, MFI) (Lord, 
1980) 或 极 大 化 Kullback-Leibler (KL) (Chang & Ying, 
1996) 信 息 量 策略 选择 适合 被 试 当前 估计 能 力 6 的 
项 目 , 测验 结束 再 估计 被 试 的 知识 状态 & ; (2) 利 用 
CD-CAT FRIM EKRIR (Shannon entropy, 
SHE) 或 极 大 化 KL 信息 量 (Tatsuoka, 2002; Xu et al., 
2003) 选 择 适 合 被 试 当 前 知识 状态 估计 值 的 项 目 ， 
测验 结束 再 估计 被 试 的 能 力 0; (3) 适 应 被 试 当前 能 
力 估计 值 4 和 知识 状态 估计 值 & 的 影子 测验 
(shadow test) 选 题 ， 即 先 根据 被 试 能 力 估 计 值 6， 


目 作 为 下 一 题 的 备 选 , 并 在 不 同属 性 层级 结构 下 对 
能 力 0 估计 精度 、 知 识 状态 a 分 类 精度 等 指标 进行 
对 比 , 他 的 研究 结果 也 表明 与 单一 目标 选 题 策略 相 
比 ， 影 子 测验 选 题 的 表现 更 优 。 

McGlohen 和 Chang (2008)、 杜 宣 宣 (2010) 的 影 
子 测验 选 题 是 两 步 估计 法 ， 有 学 者 认为 (Cheng, 2007; 
Dai et al., 2016) 两 步 “局 部 优化 ”的 组 合并 不 一 定 保 
证 “良好 的 综合 结果 ”， 更 理想 的 项 目 选择 方法 应 该 
在 一 个 步骤 内 同时 考虑 & 和 6 以 获得 更 适合 的 项 
目 ， 因 此 提出 基于 & 和 6 的 组 合 策略 选 题 法 。 

Cheng (2007) 和 Dai 等 人 (2016) 用 线性 加 权 组 
合 objective = w* f (8) -(12w)* g(à) 的 指标 代替 影子 
测验 选 题 ， 7(O) 是 关于 6 的 信息 量 , 如 MFI 或 KL 
等 ，g(Q) 是 关于 6 的 信息 量 , 如 SHE, KL, PWKL 
(posterior-weighted KL) (Cheng, 2009), MPWKL 
(modified PWKL) (Kaplan et al., 2015) 和 PVACDI 
(posterior-weighted attribute cognitive discrimination 
index) (Zheng & Chang, 2016) 等 。 他 们 的 研究 表明 
在 能 力 0 估计 精度 、 认 知 状态 a 分 类 精度 和 项 目 曝 
光 控 制 等 3 个 指标 上 ,与 影子 测验 选 题 法 相 比 , 合 
成 指标 表现 更 优 。 

Wang 等 人 (2012) 也 基于 分 离 建 模 方式 , 将 对 
被 试 知识 状态 的 诊断 视 为 约束 条 件 , 使 用 IRT-CAT 
中 最 大 优先 级 指标 方法 (maximum priority index， 
MPI) (Cheng & Chang，2009) 来 选 题 ， 即 一 种 乘法 
组 合 策略 : objective = MPI; (å)* f(Ô), 使 得 IRT-CAT 
既 可 以 测量 被 试 能 力 又 能 对 被 试 认 知 状态 进行 分 
类 。 他 们 的 研究 表明 , 由 KL 信息 量 构造 的 MPI 指 
标 能 够 获得 较 好 的 测量 精度 。 

综合 来 看 ,组 合 策略 相对 于 影子 测验 选 题 法 而 
言 ， 能 更 加 细致 地 刻画 & 和 0 之 间 相 互 作用 对 选 题 
的 影响 。 究 竞 采用 加 法 组 合 策略 还 是 乘法 组 合 策略 ， 
与 /( 旬 和 g(6&) (MPL(G) ) 采 用 何 种 信息 量度 量 有 
X. Zheng 等 人 (2018) 对 比 了 多 种 信息 量 的 加 法 组 


采用 (1) 的 方法 构建 最 合适 0 的 影子 题库 ， 再 从 影子 
题库 中 采用 (2) 的 方法 选取 最 适合 当前 知识 状态 佑 
THA 的 项 目 作 为 下 一 题 的 备 选 。 他 们 将 这 三 种 方 
案 在 能 力 0 估计 精度 、 认 知 状态 a 分 类 精度 和 项 目 
曝光 控制 等 3 个 指标 上 进行 对 比 , 研究 结果 表明 影 
子 测验 选 题 的 表现 更 优 。 

杜 宣 宣 (2010) 也 采用 了 影子 测验 选 题 法 , 与 
McGlohen 和 Chang (2008) 不 同 之 处 在 于 ,他 先 构 
建 最 适合 当前 知识 状态 估计 值 & 的 影子 题库 ， 再 
从 影子 题库 中 选取 最 适合 当前 能 力 估 计 值 0 的 项 


合 策略 和 乘法 组 合 策略 ,他们 的 研究 结果 表明 这 两 
种 组 合 方式 在 不 同 信息 量 下 各 有 优 劣 。 

加 法 组 合 策略 的 研究 有 Cheng (2007) 的 两 种 
KL 信息 量 组 合 的 DIM (dual information method) 策 
Hs, Wang 等 人 (2014) 为 消除 KL FI PWKL 信息 量 
异 提出 的 ASI (aggregate standardized information 
method) 策 略 和 ARI (aggregate ranked information 
method) 策 略 , Kang 等 人 (2017) 用 对 称 KL 信息 量 提 
出 的 JSD (Jensen shannon divergence) 策 略 以 及 KL 
和 MPWKL 信息 量 组 合 的 MASI (modified ARD 和 


1454 心 理 


chinaXiv 合 作 期 刊 


学 dk 


第 52 卷 


MARI (modified ASD 等 。 

乘法 组 合 策略 的 研究 有 Wang 等 人 (2012) 提 出 
的 MPI 的 加 权 策 略 , Dai 等 人 (2016) 用 对 数 转 换 消除 
MFI 信 息 量 和 SHE 信息 量 量 纲 差 异 ， 将 加 法 组 合 策 
略 转 换 为 乘法 组 合 策略 的 DWI (dapperness with 
information) 策略 ，Zheng 等 人 (2018) 提 出 的 IPA 
(information product approach) 策 略 等 。 

这 些 选 题 策略 在 一 定 条 件 下 ,都 有 各 自 的 优势 ， 
或 精度 较 高 但 因 运 算 量 大 选 题 耗 时 较 多 ,如 IPA R 
略 ; 或 精度 稍 低 但 可 预先 计算 减少 选 题 用 时 ， 如 
ASI 策略 ; 或 精度 更 低 但 用 时 少 且 题库 利用 率 较 均 
^J, 如 JSD 策略 。 另 外 这 些 选 题 策略 ， 还 可 能 存在 
因 两 种 信息 量 量 纲 差异 较 大 造成 合成 指标 有 所 偏 
[n], 或 因 进行 转换 以 消除 量 纲 差异 所 带 来 的 信息 损 
失 等 问题 。 我 们 希望 开发 一 种 对 & 和 6 而 言 量 纲 比 
较 统一 的 信息 指标 ， 既 保证 估计 精度 和 分 类 精度 较 
高 ,又 能 兼顾 题库 利用 率 均 匀 性 且 选 题 耗 时 较 少 的 
新 策略 。 

在 CD-CAT 中 , 大 多 采用 贝 叶 斯 决策 对 被 试 进 
行 分 类 , 被 试 的 知识 状态 类 别 是 一 个 随机 变量 ， 当 
类 条 件 概率 和 先 验 概率 已 知 的 情况 下 , 通过 贝 叶 斯 
公式 计算 被 试 属于 每 个 类 别 的 后 验 概率 , 将 被 试 的 
类 别 决策 为 后 验 概率 大 的 一 类 ,理论 上 已 证 明 这 种 
决策 的 平均 错误 率 最 低 ( 张 学 工 , 2010, pp.14-15), 
因此 贝 叶 斯 决策 通常 也 称 最 小 错误 率 贝 叶 斯 决策 。 
研究 表明 ( 陈 平 等 ， 2011; HEINE 等 , 2018; Wang 
& Chang,，2011)， 基 于 被 试 知识 状态 类 别 的 后 验 概 
率 所 构造 的 选 题 策略 (Zheng & Chang, 2016) 和 基于 
被 试 能 力 估 计 置 信 区 间 的 后 验 概率 所 构造 的 选 题 
策略 具有 较 高 分 类 精度 和 估计 精度 ， 如 CD-CAT 中 
的 香农 箭 策 略 (Tatsuoka, 2002; Xu et al., 2003) 和 多 
维 IRT-CAT | "PE Ai ULP LD i) ME (Wang & 
Chang, 2011; 韩 雨 婷 等 , 2018). 

A FA EB LS NT EVE, WEK, KEHL 
变量 的 不 确定 性 就 越 大 。 在 CD-CAT 中 , MAREE 
被 试 知识 状态 类 别 后 验 概率 的 变化 ,然后 采用 贝 叶 
斯 决策 根据 被 试 知识 状态 类 别 的 后 验 概率 进行 分 
JE, WEE AE ke Ee ARS ES Js EE tk, 
iij SEH FT Re EB He RL SS FY) 4 2I VER PEDES, n 
FE AR Nef HES (Tatsuoka, 2002; Xu et al., 2003). iF 
学 中 ,基尼 指数 也 是 一 种 度量 随机 变量 不 确定 性 的 
指标 ， 并 应 用 于 决策 树 的 分 类 算法 ， 如 既 有 基于 入 
的 ID3 算法 (Quinlan，1986) 和 C4.5 算法 (Quinlan， 
1993), 也 有 基于 基尼 指数 的 CART 算法 (Breiman et 


al.，1984)， 这 些 算法 都 是 机 需 学 习 中 的 经 典 算 法 
(周志 华 , 2016)。 

本 研究 拟 采 用 基尼 指数 构建 双 目 标 CD-CAT 
Bye mE. BET BAIA der 2258, ME 
的 共性 在 于 它们 都 可 以 度量 随机 变量 的 不 确定 性 程 
度 且 有 既 可 以 处 理 连 续 型 随机 变量 又 可 以 处 理 离散 型 
随机 变量 。 设 离散 型 随机 变量 所 有 可 能 取 的 值 为 
(v=1,2,…, 了 ) ,了 半 取 各 个 可 能 值 的 概率 p{X =x,} = 
py-12,V, BY p, =1, 那么 随机 变量 区 的 炳 


vl 


V 
可 以 表示 为 : Ent(X)=-> p,Inp,, 随机 变量 的 


v-1 


V 
基尼 指数 可 以 表示 为 : Gini(X) =>) p,0 7 p,) =1- 


yal 


y 
Y» o ^ f(y) » -Iny, Æ y-1 处 进行 一 阶 泰勒 展 
v=l 


JF C Wis BY 2G 24h), fO)- f(0* f'Ov-D-« 
O(e)=1—-y, KIE, Æ p, -1/b A AT 3E LE TON : 


V V V 
Ent(X) = -> p, In p, =>'p,(-Inp,) =>’ p,(l- p,) 三 


vel v=l v=l 
Gini(X)', 说 明 在 极 值 点 处 , fer A AEE FB BHR 
得 相同 值 。 从 数学 表达 式 上 看 ， 烂 对 随机 变量 的 概 
率 使 用 对 数 加 权 , 反映 的 是 一 种 非 线性 关系 ， 而 基 
尼 指 数 使 用 线性 加 权 , c RS] EPPA ESE ARS M 
的 计算 公式 中 含有 对 数 运算 ， 基 尼 指 数 只 需求 平方 
和 ，,， 因 此 基于 基尼 指数 构造 的 选 题 策略 会 和 香农 箭 
选 题 策略 一 样 具 有 较 高 的 分 类 精度 ， 而 运算 速度 快 
于 香农 炉 策 略 ， 且 基尼 指数 的 线性 加 权 方 式 对 测验 
过 程 中 各 类 别 的 后 验 概率 变化 更 加 敏感 ， 从 而 有 助 
于 扩大 选 题 范围 ， 有 利于 提高 题库 利用 率 。 

本 文 利用 基尼 指数 的 上 述 优良 性 质 ， 提 出 基于 
基尼 指数 的 选 题 策略 ,期望 新 策略 能 保证 测量 精度 ， 
同时 兼顾 题库 利用 均匀 性 并 能 快速 实时 响应 ,为 同 
时 兼顾 宏观 能 力 评估 和 微观 认 知 诊断 提供 新 的 更 
优 的 方法 。 

2 已 有 双 目 标 CD-CAT 选 题 策略 简 述 

我 们 介绍 三 种 有 代表 性 的 Dual-CAT 的 选 题 策 
WE. ASI 策略 是 加 法 组 合 策略 的 代表 , 通过 标准 化 
消除 了 两 种 信息 量 量 纲 差异 后 再 将 转换 后 的 信息 
量 进行 线性 加 权 ; IPA 策略 是 乘法 组 合 策略 的 代表 ; 


! 摘自 https://www.jianshu.com/p/75518e6a5c64 
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JSD 策略 是 题库 利用 率 最 均匀 且 选 题 耗 时 最 少 的 选 
题 策略 代表 。 
2.1 ASI 策 略 


Cheng (2009) 提 出 用 PWKL 策略 代替 KL 策略 ， 
极 大 地 提高 了 被 试 的 知识 状态 a (a 是 一 个 0 和 1 构 
成 的 向 量 ) 的 分 类 精度 , 设 测 验 测量 K 个 独立 属性 ， 
被 试 的 知识 状态 有 2 类, 测验 结束 将 被 试 划分 到 
其 中 的 一 类 , PWKL 选 题 策略 的 目标 函数 为 : 


Objective = arg max (PWKL ,(a)) (1) 
JER, 


K 


2 
PWKL (à) = Y [z, (a, | Y) * KL;(à | a.)] (2) 
c=l 


p(Y; 2 y|d) 
p(Y; =y|@) 

其 中 只 为 被 试 作 答 t 题 后 的 剩余 题库 。j AR 
余 题库 中 的 项 目 ，c=1,2,...2* 为 被 试 知识 状态 的 
AEG FER, a. 2* 种 知识 状态 的 第 c 个 类 别 ， 
z,(a, | HE t 个 项 目的 得 分 模式 Y=(Y,%,.…,Y) 
下 类 别 a 的 后 验 概率 , 为 被 试 在 项 目 j 的 得 分 , y 
为 项 目的 可 能 得 分 ,对 于 两 级 评分 项 目 而 言 , y=0 
或 1，& 为 被 试 知识 状态 的 当前 估计 值 ，p(Y, =y|6) 
为 给 定 CDM MEHA 时 , 被 试 作答 第 j 题 的 答对 
概率 。 

Chang il Ying (1996) 用 KL 策略 代替 MFI 策略 
来 测量 被 试 的 能 力 0 (0 是 一 个 连续 变量 )， 以 克服 
当 作答 项 目 比 较 少 时 能 力 估计 不 准确 的 问题 ，KL 
选 题 策略 的 目标 函数 为 : 


1 
ki, - Yt Jom na (3) 
y=0 


Objective = arg max(KL; (6)) (4) 
JER, 
^ 846 ^ 
KL,() - |; ， K,(0]8)30 (5) 


^ L1 p(Y;2y|0) 

K;(8|[80)- TAT ar) 

其 中 5 建议 取 3/Vt , 1 为 被 试 已 作答 的 项 目 数 ， 

6 为 能 力 0 的 当前 估计 值 ，p(Y, =y| 人 为 给 定 IRT 

HEA IRM 和 已 知 0 时 , 被 试 作答 第 /7 题 的 答对 概率 。 

Cheng (2007) 提 出 DIM 选 题 策略 , 将 关于 6 的 

KL 信息 和 关于 6 的 KL 信息 线性 组 合 为 单个 信息 

量 以 满足 双 目 标 CD-CAT 选 题 的 要 求 , DIM 选 题 策 
略 的 目标 函数 为 : 


Objective = arg max (DIM ,(@, ô) (7) 
JER, 


DIM ,(&,0) = w* KL (&) + (1—w)* KL (6) (8) 
其 中 w 为 权重 。 


)*p(Y;2y|0) (6 


Wang 等 人 (2014) 将 DIM 策略 中 关于 6& 的 信息 
度量 用 PWKL 信息 量 代 换 ， 并 认为 PWKL,(@) 和 
KL (Ô 量 纲 不 一 致 ， 可 采用 标准 化 方法 消除 两 者 
之 间 的 差异 ,进而 提出 了 ASI 策略 ，ASI 选 题 策略 
的 目标 函数 为 : 


Objective = arg max( AST ; (à,Ó)) (9) 
jeR, 


ASI (6,0) = w* PWKL,(&)+(1-w)* KÉ (Ô) (10) 
(PWKL ;(&) - mean( PWKL(&))) 


HU MAI SD(PWKL(à)) a 
KE, ô E (KL,(0)— REOR CERCHI (12) 
SD(KL(Ó)) 


其 中 mean(PFKZ(O)) 为 剩余 题库 尺 所 有 项 目 
关于 被 试 知 识 状 态 当 前 估计 值 的 PWKL 信息 量 
均值 ，SD(PWKL(6)) 为 其 标准 差 。meanz(KL(O)) JIRI 
余 题库 尺 所 有 项 目 关 于 能 力 当 前 估计 值 C 下 KL 信 
息 量 的 均值 ，SD(KZ(O)) 为 其 标准 差 。 Wang 等 人 
(2014) 还 建议 权重 w 取 值 为 1- t/ 7L,t 为 已 做 答 项 
目 数 , TL 为 预 设 的 测验 长 度 。 

2.2 IPA 策略 

Zheng 和 Chang (2016) 提 出 适用 于 CD-CAT 短 测 
验 的 PWACDI (posterior-weighted attribute cognitive 
discrimination index) 选 题 策略 ,PWACDI 选 题 策略 
的 目标 函数 为 : 


Objective = arg max(PWACDI ;) (13) 
jeR, 
E] 
PWACDI,- 3 —- $,PWD,, (14) 
k=1 all relevant cells 
PWD w - (a, | Y)*z(a, | Y)* 
1 m 
p(Y; = y|o,) 
>| pO, - y|a,)*log| —L— || (15) 
y=0 PY; = y | a,) 


其 中 , u 和 v 为 被 坛 知 识 状 态 的 类 别 下 标 ，aw， 
Bl a, Ay 2* 种 知识 状态 中 不 相同 的 两 个 类 别 ， 
PWD jy 为 根据 项 目 j 构造 的 2* x25 的 KL 信息 矩 
Ik, 矩阵 内 的 元 素 为 任意 两 个 知识 状态 的 期 望 加 权 
KL 距离 。all relevant cells 是 指 PWD y 矩阵 中 两 种 
不 同 知 识 状态 a, 和 a, 所 对 应 位 置 的 所 有 元 素 ， 且 
这 两 种 知识 状态 仅 在 第 个 属性 值 是 不 同 的 ,其 他 
属性 值 相同 。PWACDI 选 题 策略 与 被 试 当前 知识 状 
态 估 计 值 a 无关 , 并 且 注 重 区 分 2* 种 模式 中 ,那些 
差异 较 小 的 模式 ， 这 不 同 于 PWKL 策略 。 

Zheng 等 人 (2018) 提 出 适用 于 双 目 标 CD-CAT 
的 IPA 策略 ， 认 为 该 策略 能 提供 一 个 统一 的 框架 来 
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连接 其 他 的 双 目 标 选 题 策略 ， 将 “权重 ” 视 为 与 IRT 
言 息 相 等 的 对 应 项 ， 则 不 需 考 虑 公式 (10) 中 的 权 
。 信 息 量 乘法 的 选 题 策略 的 目标 函数 为 : 
Objective = arg max(P; x KL; (ô) (16) 
Jen, 

P, HY Lt PWKL;(à) 3} PWACDI, 等 其 他 CD- 
CAT 的 选 题 策略 , 根据 Zheng 等 人 (2018) 的 研究 ， 
PWACDI , x KL,(0) 的 表现 更 好 。 

2.3 JSD 策略 


| 四 
m 


T, (ac) © zo (a.T [tG» (0) Q7 p, (2) ^]. Q3) 
h-l 


m, J t XH CES Y = (5,35, Y) FRI 
识 状态 类 别 后 验 概率 的 集合 ，z(a。) 是 类 别 a, 的 
先 验 概率 ,一 般 取 1/25, p,a.) 为 给 定 CDM FA 
识 状 态 为 a 的 被 试 答对 第 有 h 题 的 概率 , 7 为 被 试 在 
MA ame, 其 他 符号 的 含义 同 第 2 节 。 

Gini CD(z,) 刻画 在 t 个 项 目的 反应 模式 Y= 
(YY Y) 下， 被 试 知识 状态 类 别 后 验 概率 分 布 


Kang 等 人 (2017) 提 出 JSD 选 题 策略 ,不 同 于 
PWKL 策略 ， 它 是 对 称 的 KL 信息 , 4 w=(6,6), ISD 
选 题 策略 的 目标 函数 为 : 

objective = arg max(JS ; (d || ô) (17) 
J 


Eh, 


JS (â || 0)=w*KL (2 ||7)+(—w)*KL (å lln) (18) 


gj(7) = w* p(Y; 2 y| &) -0-w)* p(Y; 2 y|6) (19) 


1 p(Y; =y|@) 
KL. (â = Y, = *log| —=——— | (20 
(å lin) 2.00, y|a) | E | ) 


1 PY; =y1ô) 
KL (@||7)= Y, = y| Oy*log| ———— —— | (21 
(9 1o) Lo, PIED «| 205 | ) 


特别 说 明 , 为 了 更 清楚 的 描述 ISD 策略 ,我们 
补充 了 一 些 符号 ， 因 此 本 文中 JSD 选 题 策略 中 的 表 
达 式 与 原文 (Kang et al., 2017) 不 是 完全 相同 , 但 没 
有 改变 选 题 策略 本 里 的 含义 。 


3 基于 基尼 指数 的 双 目 标 CD-CAT 
选 题 策 略 


本 研究 分 别 定义 了 基于 被 试 知识 状态 类 别 的 
后 验 概率 和 基于 被 试 能 力 估 计 置 信 区 间 的 后 验 概 
率 的 基尼 指数 ， 并 将 两 者 组 合 构成 基于 基尼 指数 的 
双 目 标 CD-CAT 新 策略 ， 以 期 达成 高 精度 、 高 题库 
利用 率 和 快速 反馈 的 测验 需求 。 
3.1 基于 基尼 指数 的 CD-CAT 选 题 策略 

设 测验 考查 KK 个 属性 , 在 1 个 项 目的 得 分 模式 
了 = (Y, Y,,--,YX,)) FRG (c=1,2,…,2*) 的 后 验 概 


2K 
KH (a, | Y) GWH r.) AY a (a.)=1, 根据 


c-l 
基尼 指数 的 定义 ( 李 航 ，2012)， 则 被 试 知识 状态 类 
别 后 验 概率 的 基尼 指数 定义 为 : 


2k 2k 
Gini _CD(a,) = X [z,(a,)* 0 —7,(0,))] =1- Y Ez, (o. 


c=] c=1 


(22) 


的 离散 程度 ， 其 值 越 小 则 概率 分 布 越 集中 ， 即 一 个 
或 某 些 类 别 的 后 验 概率 会 远大 于 其 他 类 别 ， 从 而 有 
助 于 提高 贝 叶 斯 决策 对 被 试 分 类 的 准确 性 。 遍历 并 
选择 剩余 题库 中 使 Gini_CD(z,7) 取得 最 小 值 的 
项 目 j 作 为 下 一 题 的 候选 。 

由 于 被 试 对 候选 项 目 j 的 作答 反应 未知， 对 
于 两 级 评分 项 目 , 7 的 值 为 0 或 1( 即 y= 0 3X 1), 定 
义 被 试 知识 状态 类 别 后 验 概率 的 期 望 基尼 指数 : 

E[Gini CD(z,,Y;)]- 


1 
YGini CD(z,|Y;-y)*P(Y;-y|m) (24) 
y=0 


由 全 概率 公式 


25 
PO, 2 y | z) = M p; a A p; (e) rae) Q5) 


c=l 
Gini CD PU RNG AY H hy RRON : 
Objective = arg min(E[Gini _CD(z,,Y;)]) (26) 
jeR, 

R, 为 被 试 的 剩余 题库 ， 即 从 剩余 题库 中 选择 具 
有 最 小 E[Gini_CD(x,,Y,)| JH jo 
3.2 ”基于 基尼 指数 的 IRT-CAT 选 题 策略 

在 IRT-CAT 测验 初始 阶段 ,， 由 于 被 试 当 前 能 
估计 值 6 往 往 与 被 试 真实 能 力 值 偏差 较 大 ， 此 时 基 
F ÔH Fisher 信息 量 不 是 一 个 好 的 测验 效率 指示 量 ， 
因此 在 测验 初始 阶段 不 能 发 挥 重要 作用 (Chang & 
Ying, 1996)。Veerkamp 和 Berger (1994) 提 出 用 基于 
置信 区 间 中 信息 函数 的 最 高 均值 代替 基于 某 一 点 
的 项 目的 区 间 信 息 选 题 准 则 ， 较 好 地 克服 了 由 于 4 
估计 不 准 带 来 的 低 效 选 题 问 题 。 

优良 的 选 题 策略 使 得 被 试 能 力 估 计 值 0 随 着 
测验 的 进行 ， 越 来 越 接 近 其 真实 值 ， 根 据 Chang 和 
Ying (1996) 以 及 Wang 和 Chang (2011) 中 KL 全 局 信 
At AEB Ee ML, 我 们 定义 了 基于 被 试 能 力 估 
计 值 6 的 置信 区 间 后 验 概率 的 基尼 指数 ， 它 类 似 于 
KL 全 局 信息 量 , 利用 区 间 信 息 代替 某 个 估计 点 的 
信息 。 令 6=0+iA9， 
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Gini _ IRT(z,(8)) = | lad)" UE sm CBE 


È [z,(0)* (1— 2, (9)]A0 (27) 


1, (Ô) x zy (ÔT [oÂ ^ A= p,(9)" ^] (28) 
h-l 

KB, 2,6) 为 上 个 项 目的 反应 模式 了 = Q7, 
Y, Y) 下 ， 能 力 估计 值 6 的 置信 区 间 内 后 验 概率 
的 集合 ，Chang 和 Ying (1996) #i% 6 =3/Vi, 根据 
BILOG 程序 中 计算 后 验 期 望 概率 的 推荐 值 ， 取 求 
积 结 点 数 为 与 2V 相近 的 自然 数 ，*=|2V 1/2， 
“| ] "表示 向 上 取 整 ，m( 人 是 6 的 先 验 概率 ， 若 能 
力 先 验 信息 未 知 则 取 均 匀 分 布 。 pj(0) 为 给 定 IRM 
下 能 力 为 6 的 被 试 答对 第 n 题 的 概率 ， 其 他 符号 的 
含义 同 第 2 节 。 

遍历 并 选择 剩余 题库 中 使 Gini_IRT(x,(0),Y,) 
取得 最 小 值 的 项 目 j 作为 下 一 题 的 候选 。 
1 于 被 试 对 候选 项 目 j 的 作答 反应 Y; AE, X 
于 两 级 评分 项 目 , 7 的 值 为 0 或 1( 即 y=0 或 1), 定 
义 能 力 估计 值 6 的 置信 区 间 后 验 概率 的 期 望 基尼 
RR: 
E[Gini IRT(z, (8), Y;)] 


1 7 和 
>) Gini _IRT(x,,\(9)|Y; = y) * PY, = y|x,(8)) Q9) 


y=0 
PY, - y |n, (8) = 
[i (OY A= p,(0) Y ()d()) — G0) 
Gini IRT 选 题 策略 的 目标 函数 为 : 
Objective = arg min(E[Gini IRT(z,(0)Y,]) (31) 
jeR, 

R 为 被 试 的 剩余 题库 ， 即 从 剩余 题库 中 选择 具有 最 
小 E[Gini _ IRT (x, (0), Y;)] BIW A jo 
3.3 组合 策略 

Cheng (2007) 和 Wang 等 人 (2014) 提 出 将 基于 被 


为 d, 这 两 个 后 验 概率 构造 的 基尼 指数 指标 的 量 纲 
不 会 有 很 大 差异 ,不 需要 像 Wang 等 人 (2014) 将 两 
^ KL 信息 量 进行 标准 化 再 进行 线性 组 合 ， 因 转化 
还 是 会 带 来 信息 损耗 ， 新 策略 的 合成 方法 保持 了 原 
有 信息 。 

Gini 选 题 策略 的 目标 函数 为 : 

Gini, (4,0) = w* E[Gini CD(z,,Y;)]- 

(1 w)* E[Gini _ IRT(z,(8),Y;)] (32) 


Objective = arg min(Gini , (d, ô) (33) 


JER, 


其 中 ,w 是 权重 , 根据 Wang 等 人 (2014) 的 建议 ， 
在 高 质量 题库 中 建议 使 用 理论 权重 w = 1 - (TL, t 
为 已 做 答 项 目 数 , TL 为 预 设 的 测验 长 度 。 


4 模拟 实验 设计 


为 考察 不 同 CDM、 被 试 不 同 知识 状态 分 布 以 
及 不 同 测验 长 度 下 新 策略 的 性 能 及 其 与 其 他 选 题 
策略 的 比较 ， 开展 了 Monte Carlo 模拟 实验 人 研究。 
实验 考察 了 3 种 CDM (G-DINA, DINA, R-RUM)x 3 
种 被 试 知识 状态 的 分 布 (高 阶 模 型 、 高 相关 多 元 正 
态 模 型 和 低 相 关 多 元 正 态 模型 ) x 4 种 测验 长 度 (5、 
10、15、20) = 36 种 情形 下 新 策略 的 表现 。 
44 ” 认 知 诊断 模型 

在 饱和 模型 G-DINA (de la Torre, 2011) 和 缩减 
模型 (DINA, R-RUM) (Hartz, 2002; Junker & Sijtsma, 
2001) 下 讨论 各 选 题 策略 表现 。 G-DINA 模型 在 适当 
约束 条 件 下 可 简化 为 不 同 的 缩减 模型 : S; G-DINA 
所 有 主 效 应 和 低 阶 交互 效应 值 为 0, 则 其 简化 为 
DINA 模型 ; 若 对 数 连接 函数 的 所 有 交互 效应 的 值 
为 0， 则 可 得 R-RUM. 
4.2 题库 参数 和 被 试 知识 状态 
4.2.1 ”模拟 题库 项 目的 属性 向 量 

设 题库 考察 S 个 独立 属性 ,每 个 项 目 最 多 考察 
3 个 属性 即 共 25 (C1 - C2 4 C$ - 25 ) 种 项 目 属性 向 


WIERA å 的 KL 信息 函数 和 能 力 9 的 KL 信息 
函数 进行 加 权 线 性 组 合 以 得 到 单一 信息 量 形式 的 
双 目 标 选 题 策略 ， 如 公式 (8) 和 (10)。Zheng 等 人 
(2018) 提 出 将 两 个 函数 相 乘 的 双 目 标 选 题 策略 ， 如 
公式 (16)。 由 于 乘法 运算 更 加 费时 。 我 们 采用 Cheng 
(2007) 和 Wang 等 人 (2014) 的 线性 加 权 和 方式 获得 
基于 基尼 指数 的 双 目 标 选 题 策略 目标 函数 。 

本 文 提出 的 新 策略 基于 两 个 随机 变量 后 验 概 
率 的 基尼 指数 构造 的 新 指标 ， 由 于 每 个 随机 变量 后 
验 概 率 的 取 值 范围 为 [0，1]， 且 后 验 概 率 的 累加 和 


量 , 每 种 属性 向 量 重复 10 次 ， 可 得 题库 中 250 个 项 
目的 属性 向 量 。 
4.2.2 ”模拟 被 试 知识 状态 的 真 值 

被 试 知识 状态 采用 两 种 方式 模拟 , 一 种 采用 
HO-CDM (Wang et al., 2012, 2014; Huang, 2020), 
另 一 种 采用 多 元 正 态 分 布 生成 (Dai et al., 2016; 
Kang et al., 2017)。 考 察 这 两 种 模拟 方式 是 因为 他 们 
的 作答 反应 数据 可 以 同时 拟 合 CDM F IRT 的 模型 ， 
也 是 双 目 标 CD-CAT 中 常用 的 模拟 方法 。 
(1) 被 试 知识 状态 用 HO-CDM (de la Torre & 
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Douglas, 2004) 生 成 。 高 阶 模 型 假定 考生 是 否 掌握 某 
个 属性 与 泛 化 的 潜在 能 力 有 关 。 通过 logit 链接 ,给 
定 高 阶 能 力 9 ,被 试 i 掌握 属性 的 概率 定义 为 : 
SPAO- ae py ; 

Pau 18) ea B Au" 类 似 IRT 中 的 
2PLM iU, Hor A, M AS, 是 区 分 度 参 数 和 位 置 参 
数 ，0; ~N(0,1)，InX ~N(0,1) (将 值 的 约束 在 [0.2， 
2.5] X ByE EA), Ag ~ N(0,1), 男生 成 随机 数 r, 
r-uniform(0,1), WA Pia, 19) zr, WS a, —1, A 
则 令 wx —0 (Ma & de la Torre, 2020). 

(2) 被 试 知 识 状态 用 多 元 正 态 模型 生成 。 采 用 多 
元 正 态 阔 值 模型 (均值 为 0; 变量 间 的 相关 分 别 设 
0.8, 0.2 两 种 水 平 , 分 别 代表 属性 间 存 在 高 相关 和 
低 相关 ) 生 成 被 试 真实 属性 掌握 模式 , 用 0 作为 截 
断 点 获得 离散 值 知识 状态 (Ma & de la Torre, 2020). 
4.2.3 ”模拟 题库 CDM 项 目 参 数 和 IRT 模型 参数 

采用 第 1 节 介 绍 的 分 离 建 模 方法 构建 题库 ， 
CDM 模型 分 别 采 用 G-DINA, DINA 和 R-RUM fi 
型 , IRT 模型 采用 2PLM， 这 些 模型 是 研究 和 实践 中 
经 常 使 用 的 模型 。 

题库 参数 用 RR 软件 中 的 GDINA 包 和 mirt 包 模 
拟 和 估计 。 

以 G-DINA 模 型 和 被 试 的 知识 状态 采用 高 相关 
多 元 正 态 模型 生成 为 例 介 绍 题库 项 目 参 数 的 模拟 。 

(根据 GDINA 包 (Ma & de la Torre, 2020) 的 说 
明文 档 , CDM 参数 的 设 定 可 以 采用 三 种 方法 。 第 一 
种 方法 ， 为 每 个 项 目 指定 猜测 参数 p(0) 和 失误 参数 
1-p(1), 其 中 , P(0) 表 示 未 掌握 项 目 任何 一 个 考察 属 
性 的 被 试 正 确 作 管 概率 , p(1) 表 示 和 掌握 了 项 目 所 有 
考察 属性 的 被 试 正确 作答 概率 ， 其 他 类 型 的 被 试 作 
答 概 率 从 [p(0), p(1)] 中 生成 , 需 符合 约束 单调 性 原 
则 ， 即 掌握 项 目 考察 属性 个 数 多 的 被 试 的 正确 作答 
概率 大 于 掌握 项 目 所 考察 属性 个 数 少 的 被 试 的 正 
确 作答 概率 ; 第 二 种 方法 ,为 每 个 项 目的 每 种 知识 
状态 指定 答对 概率 ; 第 三 种 方法 ， 为 每 个 项 目 指定 
G-DINA 模型 中 的 delta 参数 。 
因 第 一 种 方法 简单 易 操 作 ， 本 人 研究 采用 第 一 种 
方法 , 利用 GDINA 包 中 的 simGDINA 函数 模拟 
G-DINA 模型 的 项 目 参 数 , VE p(0)-uniform(0.05,0.25), 
p(1)~uniform(0.75,0.95)， 其 他 掌握 了 项 目 所 考察 的 
部 分 属性 的 被 试 正确 作答 概率 从 [p(0), p(1)] 中 生成 ， 
正确 作答 概率 保证 单调 性 。 

(2) 因 为 2PLM 的 项 目 参 数 估 计 需 要 1000 以 上 
样本 才能 获得 较 好 的 精度 ， 本文 利 用 高 相关 多 元 正 


态 模型 模拟 3000 个 被 试 的 知识 状态 , 根据 已 知 的 
每 个 项 目 属性 向 量 和 G-DINA 模型 的 项 目 参 数 获得 
每 个 被 试 在 每 个 项 目 上 的 正确 作答 概率 p, 男 外 生 
成 随机 数 7,r~uniform(0,1)， 如 果 p 三 x-， 则 令 得 分 为 
1， 和 否则 令 得 分 为 0， 即 获得 3000x250 的 完全 得 分 
阵 (Wang et al., 2012, 2014)。 将 得 分 阵 用 R 软件 中 
的 mirt 包 (Chalmers，2012) 中 mirt 函数 拟 合 2PLM 
可 得 题库 中 250 个 项 目的 区 分 度 和 难度 参数 , 用 R 
软件 中 的 GDINA 包 中 GDINA žr} G-DINA 模 
型 参数 进行 校正 ， 以 获得 更 准确 的 参数 。 

按照 上 述 方法 ,可 以 获得 相应 的 3(G-DINA, 
DINA, R-RUM) x 3( 高 阶 模型 、 高 相关 多 元 正 态 模 
型 和 低 相 关 多 元 正 态 模型 ) = 9 种 题库 的 CDM 的 参 
数 和 2PLM BH. 
4.2.4 ”模拟 被 试 能 力 的 真 值 

被 试 对 项 目的 反应 是 根据 CDM 模型 模拟 生成 ， 
模拟 被 试 作答 题库 所 有 项 目的 反应 数据 ,将 反应 数 
据 用 期 望 后 验算 法 (Bock & Mislevy, 1982) 估 计 被 试 
的 能 力 值 作为 其 真 值 (Wang et al., 2012, 2014; Dai 
et al., 2016; Kang et al., 2017)。 
4.3 ” 选 题 策 略 

DIM 策略 (Cheng, 2007) 是 首 个 将 两 个 KL 信息 
量 进行 线性 组 合 的 策略 ，ASI 策略 将 两 个 信息 量 标 
准 化 以 消除 两 个 信息 量 的 量 纲 差异 后 再 线性 组 合 ， 
根据 Wang 等 人 (2014) 的 研究 结果 ，ASI 策略 优 于 
DIM 策略 。 根 据 Zheng 等 人 (2016，2018) 的 研究 结 
果 ，PWACDI 策略 在 短 测验 上 的 分 类 精度 优 于 
PWKL 策略 , PVACDI*KL 策略 和 DWI 策略 (Dai et 
al.，2016) 都 属于 双 信 息 量 的 乘法 组 合 策略 IPA, W 
3% (Zheng et al., 2016, 2018) 表 明 , PWACDI*KL 在 一 
复 IPA 策略 中 表现 更 好 ,JSD 策略 (Kang et al., 2017) 
基于 被 试 当 前 知识 状态 估计 值 和 能 力 估计 值 的 对 
Tk KL 信息 选 题 , 在 选 题 过 程 中 不 需要 积分 运算 ， 
因此 运算 简单 ， 选 题 速 度 很 快 ， 根 据 Kang 等 人 
(2017) 的 研究 ,JSD 策略 与 其 他 策略 相 比 在 选 题 用 
时 和 题库 利用 均匀 性 上 有 较 大 的 优势 。 

本 文 将 Gini HE Ej ASI WE (Wang et al., 2014), 
IPA 中 的 代表 PWACDI*KL 策略 (Zheng et al., 
2018), JSD (Kang et al., 2017) 策 略 在 9 种 题库 下 进 
行 对 比 ， 从 测量 精度 (包含 知识 状态 分 类 精度 和 能 
力 估计 精度 )、 题 库 利 用 均匀 性 和 选 题 用 时 等 方面 
考查 新 策略 的 性 能 。 
44 终止 规则 

实验 均 采 用 定 长 测验 , 定 长 测验 设置 了 4 个 水 
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平 : 5, 10, 15 和 20 题 。 
45 评价 指标 
4.5.1 ”知识 状态 分 类 精度 指标 
模式 判 准 率 是 评价 知识 状态 分 类 精度 的 指标 ， 
值 越 大 , 分 类 精度 越 高 。 
S 1G. =a;) 


PMR = =! 
N 


Hp (0) 表示 当 条 件 。 为 TRUE 时 , 计数 为 1， 
否则 为 0。N 为 被 斌 人数。& 是 被 试 知识 状态 的 估 
计 值 ，w; 是 被 试 知 识 状态 的 真 值 。 

4.5.2 ”能 力 估 计 精 度 指标 
用 Bias 和 RMSE 作为 能 力 估计 精度 的 指标 。 
值 越 小 , 参数 返 真性 越 高 。 
ne ， 
Rs 


1 N ,A 2 
RMSE = NC -6) 


Hn 6, Bethe TE, 6, 被 试 能 力 真 值 。 其 
他 变量 含义 同上 。 
45.3 ”题库 使 用 均匀 性 指标 

卡 方 值 和 测验 重生 率 是 评价 题库 使 用 均匀 性 的 
重要 指标 ， 值 越 小 ,题库 使 用 越 均 匀 ， 利 用 率 越 高 。 


L 
Dn /N-TL/ LY 


卡 方 值 指标 妇 = 避 


TL/L 


NxY (n1 Ni 


WREAK TOR = —> 
(N-DxTL | N-1 


其 中 mj 为 项 目 j 的 曝光 次 数 , 工 为 题库 容量 , TL 
设 定 的 测验 长 度 , 其 他 变量 含义 同上 。 
4.5.4” 选 题 用 时 


N 
2.45 
N 


其 中 , 7 为 第 i 个 被 试 完成 测验 所 需 时 间 ( 单 位 : 
Tb). 由 于 模拟 研究 的 时 间 消 耗 主 要 在 选 题 上 ,其 他 
用 时 可 忽略 不 计 ， 因 此 TC 即 为 选 题 耗 时 。 值 越 小 ， 
选 题 速度 越 快 。 

4.6 CAT 实施 过 程 

整个 CAT 的 程序 , 运行 于 Python 3， 硬 件 配 置 
为 4 核 处 理 器 Intel Core i5 1.9GHz, 内存 8G。 以 
G-DINA 模型 和 高 相关 多 元 正 态 模型 模拟 被 试 知识 
状态 的 实验 条 件 为 例 , 说 明 CAT 的 实施 过 程 。 

(1) 选 择 对 应 实验 条 件 下 在 R 环境 中 用 GDINA 


TC= 


包 和 mirt 包 构 建 的 题库 (细节 参照 第 4.2 节 ); 

(2) 采 用 高 相关 多 元 正 态 模型 模拟 被 试 的 知识 
状态 作为 被 试 知识 状态 的 真 值 ， 并 模拟 被 试 采用 
G-DINA 模型 作答 题库 所 有 题 , 用 期 望 后 验 法 估计 
其 能 力 值 作为 被 试 能 力 真 值 (细节 参照 第 4.2 节 ); 

(3) 随 机 分 配 3 题 给 被 试 作答 ,根据 初始 3 题 的 
反应 ,估计 被 试 知 识 状 态 初 值 和 能 力 初 值 ; 

(4) 分 别 采 用 Gini 策 略 , ASI 策 略 , IPA 策略 , JSD 
策略 选 题 进入 各 自 CAT 的 过 程 ， 被 试 每 作答 一 个 
项 目 , 采用 最 大 后 验 法 估计 被 试 知识 状态 和 采用 期 
望 后 验 法 估计 被 试 能 

(5) 重 复 (4) 直 到 满足 测验 停止 要 求 ; 

(6) 测 验 结束 后 根据 每 种 策略 下 的 最 终 被 试 知 
识 状态 估计 值 和 被 试 能 力 估 计 值 计算 第 4.5 节 中 的 
评价 指标 。 

为 消除 随机 效应 ， 每 次 模拟 1000 个 被 试 ， 每 种 
实验 条 件 重复 10 次 , 计算 每 种 实验 条 件 下 各 评价 
指标 的 平均 值 ( 见 第 5 节 的 表格 , SD 表示 其 标准 差 )。 


5 实验 结果 


分 类 精度 的 比较 
表 1 ZW, Gini 策略 和 IPA 策略 的 模式 判 准 率 
远 高 于 ASI 策略 和 ISD 策略 ， 且 整体 而 言 Gini 策 
略 的 模式 判 准 率 略 高 于 IPA 策略 ,这 两 种 策略 在 不 
同 实验 条 件 下 的 模式 判 准 率 均 超 过 95% 且 标准 差 
都 较 小 , 说 明 他 们 的 分 类 结果 稳定 可 靠 , 可 适用 于 
不 同 CDM 的 题库 或 多 种 CDM 混合 题库 。 

图 1 是 各 选 题 策略 在 不 同 测验 长 度 上 的 表现 ， 
随 测验 长 度 的 增加 , 各 选 题 策略 的 模式 判 准 率 逐 渐 
提高 。Gini 策略 和 IPA 策略 的 变化 曲线 非常 相似 ， 
增长 最 快 ， 始终 保持 最 好 的 判 准 率 。 在 短 测 验 (7L < 
15) 中 , Gini, IPA 和 ASI 策略 的 模式 判 准 率 很 接近 ， 
在 中 长 测验 (7IZ>15) 后 , ASI 策略 的 增长 速度 要 低 于 
前 两 者 。 与 表 1 的 结论 相同 ，Gini 和 IPA 策略 在 不 
同 实验 条 件 下 的 变化 曲线 没有 太 大 差异 ， 因 此 他 们 
在 短 测验 和 中 长 测验 下 均 能 获得 较 好 的 分 类 精度 。 
5.2 ”能 力 估计 精度 的 比较 

d 2 表明 , BRE DINA 模型 下 属性 间 低 相关 的 
实验 条 件 外 , 4 种 策略 对 能 力 估 计 基 本 是 无 偏 的 。 
ASI 策略 的 估计 偏差 最 小 ,其 次 是 Gini 策略 。IPA 
策略 具有 最 小 的 能 力 估 计 均 方差 值 , 与 之 相 比 , Gini 
策略 稍稍 差 一 些 , 但 最 大 差异 也 仅 有 0.04。 当 属性 
间 高 相关 时 , 4 种 选 题 策略 的 能 力 估 计 均 方差 值 非 
常 接近 ,最 大 差异 仅 有 0.03， 而 在 其 他 条 件 下 ,最 
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表 1 20 题 各 选 题 策略 的 模式 判 准 率 均值 及 标准 差 
NR 选 题 策略 
CDM 模型 ens Gini ASI IPA JSD 
Mean/% SD Mean/% SD Mean/% SD Mean/% SD 
HO 97.00 0.009 89.28 0.025 96.10 0.010 85.04 0.024 
G-DINA MV-0.8 97.22 0.004 93.05 0.011 97.44 0.008 92.02 0.014 
MV-0.2 96.84 0.007 90.78 0.014 96.35 0.006 87.51 0.016 
HO 97.45 0.010 90.99 0.032 97.18 0.011 75.3] 0.060 
DINA MV-0.8 97.24 0.011 93.45 0.017 97.06 0.010 91.46 0.023 
MV-0.2 97.57 0.006 93.76 0.007 96.93 0.008 86.23 0.050 
HO 95.41 0.010 87.61 0.021 95.38 0.010 76.64 0.028 
R-RUM MV-0.8 97.09 0.009 92.45 0.014 96.82 0.008 91.67 0.010 
MV-0.2 96.81 0.008 87.88 0.022 96.82 0.012 80.52 0.038 


TE: HO 指 被 试 知识 状态 
识 状 态 用 多 元 正 态 模型 生成 且 属 性 间 相 关系 数 为 0.2。 


HO-CDM 生成 , MV-0.8 指 被 试 知识 状态 用 多 元 正 态 模型 生成 且 属 性 间 相 关系 数 为 0.8, MV-0.2 指 被 试 知 


m GDINA m DINA 
H ; " : 100 F 
90- A A Po 90 J DU 90 + 
x 30- g 80- pr f- 80 - 
x F 70 eur 
& 60r 60 的 下 
& sor 50 50 
404 40 40 H 
W 30H 30 30 
Æ 20 上 20 20 - 
10 - 10 10 + 
0 i | | | | L | L | | L L L J 0 | L L | L | L ls L L L J 0 L L L L L L L L I L L L 
5 101520 E 10 15 20 5 1015 2 5 10 15 20 5 101520 |5 10 Pa 5101520 |5 101520 |5 161520 
HO MV-0.8 | MV-02 HO MV-0.8 MV-0.2 HO MV-0.8 | MV-0.2 
— Gini -= ASI IPA —- JSD 
图 1 不 同 测验 长 度 的 模式 判 准 率 
表 2 20 题 各 选 题 策略 的 Bias 和 RMSE 
"m 知识 状态 
一 
CDM 模型 生成 模型 Gini ASI IPA JSD 
Bias RMSE Bias RMSE Bias RMSE Bias RMSE 
HO 0.02 0.32 0.00 0.41 0.04 0.28 0.02 0.40 
G-DINA MV-0.8 0.00 0.29 0.01 0.29 0.02 0.29 0.02 0.30 
MV-0.2 0.03 0.27 0.02 0.32 0.07 0.27 0.05 0.42 
HO 0.08 0.40 -0.02 0.41 -0.14 0.37 —0.05 0.46 
DINA MV-0.8 0.02 0.34 0.01 0.32 -0.03 0.35 —0.08 0.35 
MV-0.2 -0.12 0.38 —0.09 0.36 —0.24 0.42 0.28 0.52 
HO -0.07 0.35 -0.01 0.42 -0.14 0.35 —0.02 0.45 
R-RUM MV-0.8 0.00 0.30 -0.02 0.30 -0.03 0.30 —0.03 0.32 
MV-0.2 —0.04 0.31 -0.01 0.43 -0.10 0.29 -0.05 0.51 


大 差异 达 0.22， 这 说 明 属 性 间 高 相关 时 , 4 种 选 题 策 
略 均 可 用 ， 而 其 他 条 件 下 可 优先 考虑 IPA 和 Gini 
策略 。Gini 和 IPA 策略 的 能 力 估计 精度 与 CDM 有 
X, Gini 策略 所 受 影响 更 小 一 些 。ASI 和 JSD 策略 
的 能 力 估计 精度 既 与 CDM 有 关 又 与 被 试 知识 状态 
分 布 有 关 。 

图 2 表明 随 测验 长 度 的 增加 被 试 能 力 估计 的 均 


方差 值 在 下 降 ， 即 参数 估计 精度 在 上 升 ，Gini 和 
IPA 策略 均 方 差 值 下 降 速度 最 快 ， 且 两 种 策略 的 下 
降 曲 线 基 本 相同 , ISD 策略 的 下 降 趋 势 最 慢 。 当 属 
性 间 高 相关 时 , 4 种 选 题 策略 的 曲线 基本 重合 ,在 
其 他 条 件 下 , 与 图 1 类 似 , 在 短 测验 (TL < 15) 中 ， 
Gini, IPA 和 ASI 策略 的 曲线 基本 一 致 ， 在 中 长 测 
验 (TL > 15) 后 , ASI 策略 不 如 前 两 者 。 因 此 Gini 和 
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IPA 策略 在 短 测验 和 中 长 测验 下 均 能 获得 较 好 的 能 
力 估计 精度 。 
5.3 ”题库 使 用 均匀 性 的 比较 

X 3 表明 , ISD 策略 的 题库 利用 均匀 性 优 于 其 
他 3 种 策略 。Gini 和 IPA 策略 的 题库 利用 率 指标 值 
相近 ,整体 而 言 ，Gini 策略 的 题库 利用 均匀 性 稍 好 
于 IPA 策略 ， 且 两 者 均 好 于 ASI 策略 。 当 在 DINA 
模型 下 属性 间 高 相关 时 , 4 种 选 题 策略 的 题库 利用 
率 指标 值 比较 接近 ， 而 在 其 他 条 件 下 差异 较 大 。4 
种 选 题 策略 的 题库 利用 均匀 性 指标 既 与 CDM 有 关 ， 
又 与 被 试 知识 状态 的 分 布 有 关 。 

图 3 表明 ， 随 测验 长 度 的 增加 , 各 选 题 策 略 的 卡 


方 值 在 下 降 ， 即 题库 使 用 均匀 性 逐渐 提高 。 每 种 选 
题 策略 在 不 同 条 件 下 的 曲线 变化 基本 相似 , ISD 的 下 
降 曲线 最 好 , 其 次 是 Gini 策略 ， 当 在 DNA 模型 下 属 
性 间 高 相关 时 , 4 种 选 题 策略 的 下 降 曲 线 基 本 重合 。 
5.4” 选 题 用 时 的 比较 

X 4 表明 , ISD 策略 的 选 题 用 时 最 少 ， 其 次 是 
ASIRIK, 接着 是 Gini 策 略 ， 用 时 最 多 的 IPA 策略 。 
IPA 策略 的 选 题 用 时 是 Gini 策略 的 近 10 倍 。 每 种 
选 题 策略 在 不 同 条 件 下 用 时 基本 不 变 ， 因 为 选 题 时 
间 主 要 与 选 题 策略 算法 的 运算 量 ， 属 性 个 数 和 题库 
容量 有 关 ， 当 属性 个 数 确定 和 题库 容量 已 知 ， 选 题 
算法 的 运算 量 起 决定 性 作用 。 


0.8 GDINA 08- DINA 0.8 R-RUM 
0.7 0.7 - ML 
0.6 pr N 0.6 F A S SÉ | 
m 0.5 \ 0.5 - 05+ X 
o i L 全 [ 
0.4 RCM 1 04 - S wu 04+ NÉ ER 
à 0.3 Em NEU 03L 0.3 a a 
0.2 02- 0.2 
0.1 0.1 F 0.1 
0 | | | 1 | 1 1 1 1 ] 0 0 
5 10 15 g 5 1015 20|5 1015 2 5 101520 |5 101520 |5 10 15 20 5101520 |5 101520 |5 101520 
HO MV-0.8 | MV-02 HO MV-0.8 MV-0.2 HO MV-0.8 | MV-0.2 
—- Gini -= ASI IPA -一 JSD 
图 2 不 同 测验 长 度 的 能 力 估 计 均 方差 
表 3 20 题 各 选 题 策略 的 题库 使 用 均匀 性 指标 
"e 知识 状态 
m = 
CDM 模型 生成 模型 Gini ASI IPA JSD 
x TOE X TOE X TOE 和 TOE 
HO 82.38 0.41 98.75 0.47 85.34 0.42 44.45 0.26 
G-DINA MV-0.8 69.37 0.36 77.30 0.39 77.11 0.39 53.26 0.29 
MV-0.2 72.50 0.37 91.36 0.44 82.94 0.41 37.08 0.23 
HO 70.91 0.36 86.88 0.43 72.68 0.37 53.52 0.29 
DINA MV-0.8 56.55 0.31 66.74 0.35 58.98 0.32 59.31 0.32 
MV-0.2 72.11 0.37 83.17 0.41 67.31 0.35 58.41 0.31 
HO 95.78 0.46 109.29 0.52 94.55 0.46 58.22 0.31 
R-RUM MV-0.8 85.70 0.42 84.99 0.42 87.92 0.43 56.27 0.30 
MV-0.2 88.92 0.44 105.01 0.50 95.48 0.46 60.78 0.32 


0 | | | | it | I I | I I L | 0 I I I I I I I I | I I 1 J ^ 1 I I I | I I I | I L L | 
5 101520 E 101520 5 10 15 a 5 10 15 20 5 10 15 20 |^ 10 15 a 5 101520 5 101520 |5 T 
HO MV-0.8 MV-0.2 HO MV-0.8 MV-0.2 HO MV-0.8 | MV-0.2 
— Gini -= ASI IPA —- JSD 
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表 4 20 题 各 选 题 策略 的 选 题 用 时 指标 (单位 : Ph) 


CDM 模型 和 
生成 模型 Gini ASI IPA JSD 
HO 227 0.82 2227 0.16 
G-DINA  MV-0.8 227 0.82 2195 016 
MV-0.2 2.27 0.81 22.18 0.16 
HO 227 0.81 21.96 0.16 
DINA MV-0.8 2.28 0.80 21.91 0.16 
MV-0.2 226 0.78 22.04 0.16 
HO 2.28 0.86 21.96 0.16 
R-RUM MV-0.8 227 0.81 22.14 0.16 
MV-0.2 226 O81 22.01 0.16 


6 总结 和 讨论 
6.1 总 结 

本 文 利 用 基尼 指数 的 优良 性 质 , 构造 一 种 新 的 
双 目 标 CD-CAT 的 选 题 策略 , 模拟 实验 表明 新 策略 
的 测量 精度 较 高 ,兼顾 题库 利用 均匀 性 并 能 快速 实 
时 响应 ,为 同时 兼顾 宏观 能 力 评估 和 微观 认 知 诊断 
提供 了 新 的 更 优 的 方法 。 

实验 考察 了 3 种 CDM 和 3 种 不 同 被 试 知识 状 
态 分 布下 , 4 种 双 目 标 选 题 策略 (Gini 策略 、ASI 策 
略 、IPA 策略 和 ISD 策略 ) 的 表现 , 综合 来 看 ,得 到 
如 下 结论 : (1) Gini 策略 和 IPA 策略 在 分 类 精度 指 
标 ， 能 力 估计 精度 指标 和 题库 使 用 均匀 性 指标 上 均 
具有 相似 的 表现 , 测量 精度 高 且 受 CDM 模型 和 被 
试 知识 状态 分 布 的 影响 较 小 ， 可 以 适用 于 实际 测验 
中 含 多 种 认 知 诊断 模型 的 混合 题库 ,总 体 而 言 , Gini 
策略 稍 好 于 IPA 策略 , H Gini 策略 的 选 题 用 时 仅 为 


测验 精度 稍 高 于 JSD 策略 。 
6.2 ”讨论 

Gini 策略 是 基于 被 试 知识 状态 类 别 的 后 验 概 
率 和 被 试 能 力 估计 置信 区 间 的 后 验 概率 构造 的 ， 因 
此 受 CDM 和 被 试 知识 状态 分 布 的 影响 较 小 ,这 种 
构造 方法 直接 反映 后 验 概 率 的 变化 且 采 用 了 最 小 
错误 率 贝 叶 斯 决策 确定 被 试 的 知识 状态 ， 因 而 测量 
的 精度 也 非常 高 。 基 尼 指 数 的 线性 加 权 方 式 , 使 得 
其 对 后 验 概率 的 变化 相 比 焙 而 言 更 加 敏感 ， 从 而 有 
助 于 扩大 选 题 范 围 提 高 题库 利用 均匀 性 ， 且 加 法 运 
算 速度 较 快 ， 能 满足 Dual-CAT 实时 响应 的 需求 。 

在 某 些 条 件 下 (如 被 试 的 知识 状态 由 高 阶 模型 
生成 ), Gini 策 略 的 能 力 估计 精度 会 稍 低 于 IPA 策略 
而 此 时 Gini 策略 的 模式 判 准 率 会 稍 高 于 IPA 策略 ， 
可 能 的 原因 是 组 合 策略 中 能 力 的 信息 量 和 知识 状 
态 的 信息 量 共同 作用 选择 下 一 题 ， 两 种 信息 量 在 选 
题 过 程 中 互相 均衡 的 结果 。Zheng 和 Chang (2016) 
指出 当 已 知 题库 参数 ,公式 (3) 中 的 KL 信息 量 可 以 
预先 计算 ,缩短 了 ASI 策略 的 选 题 用 时 ， 而 Gini R 
略 是 定义 在 随机 变量 后 验 概率 ， 必 须根 据 被 试 的 作 
答 反 应 实时 计算 ， 因 此 选 题 用 时 会 稍 有 增加 。 

JSD 策略 仅 计算 基于 当前 估计 值 的 KL 距离 ， 
运算 量 小 , 选 题 非常 快 ， 而 Gini 策略 需 考虑 有 限 集 
合 和 区 间 范 围 内 后 验 概率 变化 , 需要 求 和 与 积分 运 
算 ， 因此 选 题 耗 时 会 超过 ASI 策略 和 ISD 策略 。 当 
测验 长 度 较 短 时 ， 能力 估计 值 和 被 试 知识 状态 估计 
值 偏离 真 值 较 远 ， 基 于 他 们 当前 估计 值 的 JSD 策略 
的 选 题 范围 比较 宽泛 ， 从 而 使 得 题库 的 利用 率 会 
更 加 均匀 ; Gini 策略 不 依赖 于 能 力 和 知识 状态 的 当 


IPA 策略 的 十 分 之 一 ; (2) Gini 策略 和 ASI 策略 都 是 
两 种 信息 量 线性 加 权 的 组 合 策略 ,在 短 测验 时 ， 两 
种 选 题 策略 在 测量 精度 指标 上 的 表现 很 接近 ， 而 在 
中 长 测验 时 , 虽然 ASI 策略 的 用 时 是 Gini 策略 的 
1/3, 但 ASI 策略 的 测量 精度 和 题库 使 用 均匀 性 均 
不 如 Gini 策略 ; (3) Gini 策略 与 JSD 策略 相 比 , JSD 
策略 在 题库 使 用 均匀 性 和 选 题 用 时 指标 上 有 和 较 大 
的 优势 , 但 其 测量 精度 远 不 如 Gini 策略 。 

综 上 所 述 ,， 短 测验 时 ，Gini 策略 、IPA 策略 和 
ASI 策略 均 有 较 好 的 测量 精度 ， 都 值得 推荐 。 对 于 
中 长 测验 时 ， 对 于 属性 个 数 少 和 题库 容量 较 小 的 情 
况 下 ， 推 荐 使 用 Gini 策略 和 IPA 策略 ， 而 当 属 性 个 
数 增多 和 题库 容量 增 大 时 ,推荐 使 用 Gini 策略 。 当 
属性 间 高 相关 且 属 性 个 数 非常 多 和 题库 容量 非常 
大 时 , 推荐 使 用 ASI 策略 和 ISD 策略 ，ASI 策略 的 


前 估计 值 ， 而 依赖 于 他 们 的 概率 分 布 ， 选 题 会 更 趋 
集中 。 

Gini 策略 的 测验 精 较 高 ,但 其 题库 利用 率 不 如 
JSD 策略 。Wang 等 人 (2011) 的 研究 表明 限制 渐进 法 
(Restrictive Progressive Method: RP) 和 限制 阔 值 法 
(Restrictive Threshold Method: RT) 能 均衡 测量 精度 
和 项 目 曝光 率 ,下 一 步 研 究 拟 将 Gini 策略 与 RP 和 
RT 方法 结合 ,提高 Gini 策略 的 题库 利用 均匀 性 。 
测量 精度 和 题库 利用 均匀 性 是 一 对 相互 冲突 的 指 
标 。 使 用 控制 项 目 曝光 技术 后 ,题库 利用 均匀 性 会 
更 好 ,但 也 会 带 来 测量 精度 下 降 的 不 利 影响 ,如 何 
权衡 需要 进一步 研究 。 另 外 ,使 用 控制 项 目 曝光 技 
术 后 , 各 选 题 策略 之 间 的 差异 是 否 会 消除 , 也 有 待 
进一步 研究 。 当 属性 个 数 较 多 时 和 题库 容量 较 大 时 ， 
Gini 策略 的 选 题 用 时 可 能 会 超过 用 户 的 期 望 值 ( 延 
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时 超 2 秒 ) (Nah, 2004), 下 一 步 研究 拟 将 Gini 策略 
与 动态 搜索 算法 (Zheng & Wang，2017) 结 合 ， 对 其 
优化 以 减少 选 题 用 时 。 

本 文采 用 分 离 建 模 的 方法 获得 两 类 模型 的 参 
数 来 构建 Dual-CAT 的 题库 ， 题 库 项 目 是 否 完全 拟 
合 所 关注 的 模型 还 需要 进一步 探查 以 期 获得 更 准 
确 的 测量 结果 。 文 中 Dual-CAT 的 题库 参数 的 建立 
过 程 是 先 模拟 CDM 的 参数 和 项 目的 属性 向 量 , 根 
据 CDM 模型 获得 反应 数据 ,然后 用 反应 数据 估计 
IRT BA, 这 是 目前 研究 中 常用 的 方法 (Dai et al., 
2016; Kang et al., 2017; Wang et al., 2012, 2014), 能 
否 采 用 先 模拟 IRT 的 项 目 参 数 ,根据 IRT 模型 获得 
反应 数据 ,然后 用 反应 数据 估计 CDM 参数 和 项 目 
属性 向 量 的 方法 构建 题库 ? 在 这 种 方式 构建 题库 
下 各 选 题 策略 的 表现 有 待 进一步 探查 。 

随 着 测验 数据 的 复杂 性 和 测验 要 求 的 限定 ， 选 
题 策 略 的 发 展 也 要 适应 新 测验 形式 的 发 展 ， 比 如 属 
性 多 级 化 项 目测 验 ( 涂 冬 波 , BH, 2015)、 多 级 评分 
项 目测 验 (化 艳 等 , 2016)、 多 维 项 目测 验 ( 恩 雨 婷 
等 , 2018; Hsu & Wang, 2019)、 多 阶段 CD-CAT (F 
2; 等 , 2018; Kaplan & de la Torre, 2020), 、 融 入 非 统 
计 约 束 的 多 阶段 测验 (Lin & Chang, 2019; Liu et al., 
2018) 以 及 结合 反应 时 的 CAT 测验 (Fan et al., 2012; 
Huang，2020)， 可 探讨 基于 基尼 指数 的 选 题 策略 在 
这 些 测验 场景 下 的 效果 及 其 应 用 。 
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Abstract 
Existing literature has shown that dual-objective CD-CAT testing can facilitate the achievement of 


measurement objectives for both formative and summative assessments. And the Gini Index can be used as a 


measurement for the degree of uncertainty of random variables since a smaller Gini value indicates a lower 


degree of uncertainty. Hence, this paper proposed a Gini-Index-based selection method for dual-objective 


CD-CAT, and it measured the changes in the posterior probability of knowledge state and confidence interval for 
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latent traits estimation. By adopting the Bayesian Decision Theory, the potential information of participants 
could be detected based on participants’ responses and changes in posterior probability distribution of two the 
random variables. 

Monte Carlo Simulation was used to test the performances of the selection method based on Gini, ASI, IPA 
and JSD, respectively. The item banks measured 5 attributes consisting of 250 items in total, and each item 
measured 3 attributes at most. The true knowledge state of each participant was generated by HO-CDM and 
Multivariate Normal Models (both means were 0 and covariance coefficient was 0.8 and 0.2, respectively). 
G-DINA, DINA and R-RUM were adopted as the cognitive diagnostic models and the item bank of each of these 
three models included both CDM and 2PL parameters. Specifically, CDM parameters were generated by a 
G-DINA package in R software with the slipping and guessing parameters randomly selected from uniform 
distribution in a range from 0.05 to 0.25. The 2PL parameters were estimated by factoring in the responses 
elicited from 3, 000 participants’ responses to all items in item banks using the mirt package. Four indexes, 
namely the pattern match ratio, root mean square error of latent trait, chi-square value and time needed for item 
selection, were adopted in comparing the efficiency of different item selection methods. The value for each 
index was the mean of 10 repeated simulations of 1, 000 participants’ responses to all item bank. 

The results showed that (1) The Gini and IPA selection methods had similar performance in terms of pattern 
match ratio, root mean square error of latent trait and chi-square value. Both methods were high in precision 
measurement and low in sensitivity to CDM and the distribution of participants' cognitive patterns, making both 
methods applicable to the item banks featuring a mixture of cognitive diagnosis models. By comparison, the 
Gini method outperformed slightly the IPA method in pattern match ratio and time needed for item selection in 
which the Gini method was only one-tenth that of the IPA method; (2) Both the Gini and ASI selection methods 
were weighted linear combination approaches. The performances of the two methods were very close in the 
short test. In the long test, however, although time needed for item selection using the ASI method was only 
one-third that of the Gini method, the latter was superior to the former in terms of measurement accuracy and 
chi-square value; (3) Although the JSD method outperformed the Gini method in terms of uniformity of item 
bank usage and time needed for item selection, its measurement accuracy was far less than the latter. 

To summarize, the Gini, IPA and ASI selection methods all have good measurement accuracy and hence are 
all recommended for short tests. For medium and long tests with a limited number of attributes and a smaller 
item bank, the Gini and IPA selection methods are recommended. As the number of attributes and item bank size 
grow, the Gini method is recommended. When there are high correlations among different attributes, as well as a 
large number of attributes and big item bank size, the ASI and JSD selection methods are recommended with the 
ASI method slightly outperforming the JSD method in measurement accuracy. 

Key words cognitive diagnostic, items response theory, Gini index, dual objective CD-CAT, selection method 


